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子 任务 ， 由 于 文本 本 身 存在 语 料 通 用 性 差 、 评 价 标准 不 一 等 RE EE UI IX S] Mikolov 等 人 提出 的 关于 词 向 量 计 算 的 


Text-CRNN+Attention 架构 下 的 多 类 别 文本 信息 分 类 “ 
E E, HRA, B K JAA 


(西安 工程 大 学 电子 信息 学 院 ,西安 710048) 
摘 E: 文本 分 类 作为 数据 挖掘 和 信息 检索 领域 的 研究 热点 。 迄 今 为 止 ， 传 统 机 器 学 习 方法 依赖 人 工 提取 特征 ， 复 


杂 度 高 ; 深度 学 习 网 络 本 身 特 征 表达 能 力 强 ， 但 模型 可 解释 性 弱 导 致 关键 特征 信息 丢失 。 为 此 ， 以 网 络 层 次 结合 的 
方式 设计 了 CRNN 网 络 ， 并 引入 Attention 机 制 ， 提 出 一 种 Text-CRNN-Attention 模型 。 首 先 利 用 CNN 处 理 局 部 特 
征 的 位 置 不 变性 ， 提 取 高 效 局 部 特征 信息 ; 然后 RNN 进行 序列 特征 建 模 时 ， 引 入 Attention 机 制 对 每 一 时 刻 输出 序 
列 信 息 进行 自动 加权 ， 减 少 关键 特征 的 丢失 ; 最 后 完成 时 间 和 空间 上 的 特征 提取 。 实 验 结果 表明 ， 提 出 的 模型 较 其 
他 模型 准确 率 提升 了 2~3 个 百分点 ; 在 提取 文本 特征 时 ， 该 模型 既 保 证 了 数据 的 局 部 相关 性 ， 又 起 到 强化 序列 特征 
的 有 效 组 合 能 
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Multi-category text information classification with Text-CRNN-- Attention architecture 


Lu Jian*, Ma Chengxian, Yang Tengfei, Zhou Yanran 
(School of Electronic & Information, Xi an Polytechnic University, Xi an 7110048, China) 


Abstract: Text classification is a research hotspot in the field of data mining and information retrieval. In view of the 
current research process , traditional machine learning methods relies on manual feature extraction with high complexity; 
Deep learning network has strong feature expression ability, but the model is weak in interpretability, leading to the loss of 
key feature information. For this reason, the author designed the CRNN network in the way of network level combination, 
introduced Attention mechanism, and proposed a Text-CRNN-- Attention model. Firstly, CNN was used to deal with the 
position invariance of local features and extracted efficient local feature information. Then, Attention mechanism was 
introduced to automatically weigh the output sequence information at each time to reduce the loss of key features when 
RNN was used to model the sequence features. The feature extraction in time and space is completed. The experimental 
results show that the accuracy of the proposed model is 2 to 3 percentage points higher than that of other models. When 
dealing with text data, the model not only guarantees the local correlation of data, but also strengthens the effective 
combination ability of sequence features. 

Key words: text classification; CNN; RNN; CRNN; Attention mechanism 


引言 


性 ， 深 度 学 习 技术 作为 端 对 端的 解决 方式 ， 可 以 更 好 地 表达 
文本 特征 信息 。 深 度 学 习 技 术 在 文本 分 类 中 应 用 前 提 是 解决 


文本 分 类 研究 作为 自然 语言 处 理 任务 研究 中 不 可 获取 的 词 的 分 布 式 表 示 ( 词 映射 ) 问题 , 简单 One-Hot Representation 


问题 ， 其 研究 具备 高 度 复 杂 性 。 word2vec 模型 1, 促进 了 深度 学 习 技术 的 应 用 。 例如， 


机 器 学 习 方法 的 应 用 是 将 文本 分 类 任务 拆 分 为 特征 工程 。 等 人 多 提出 的 Text-CNN 模型 ,将 词 映射 引入 简易 CNN 模型 ， 


Kim 


和 分 类 器 ， 完 成 数据 到 信息 、 信 息 到 知识 的 过 程 。 机 器 学 习 ” 利用 CNN 捕捉 数据 的 局 部 相关 性 来 挖掘 文本 数据 局 部 信息 


新 方法 


究 主要 基于 决策 树 、.KNN\、SVM、 朴 素 贝 叶 斯 分 类 、 的 重要 性 ， 但 由 于 卷 积 核 的 固定 ， 无 法 获取 更 长 序列 信息 ; 
神经 网 络 等 39。 例如 ，Goudjil 等 人 BJ] 采用 SVM 分 类 器 的 后 Kalchbrenner 等 人 外 利用 宽 卷 积 (wide convolution) 代替 罕 
验 概率 来 选择 样本 进行 分 类 ， 缓 和 了 文本 特征 信息 间 关 系 ; 卷 积 ， 并 采用 K-max pooling 方式 ， 一 是 解决 了 输入 序列 长 
改进 的 树 增 强 朴素 贝 叶 斯 TAN) 有 效 提升 了 准确 率 , 但 计算 度 受 限 问题 ， 二 是 减少 了 特征 信息 的 丢失 ; CNN 虽然 可 以 高 
[ 程 复 杂 、 耗 时 ，FacebookD 提 出 的 FastText 模型 考虑 了 单 效 挖掘 数据 局 部 特征 信息 ， 但 无 法 获取 上 下 文 信息 。RNN 作 


词 间 的 顺序 关系 和 分 类 器 的 计算 速度 ， 模 型 结构 简单 、 速 度 ”为 自然 语言 处 理 中 的 标 配 模型 ， 可 以 更 好 地 处 理 文本 上 下 文 


有 旦 准确 率 较 低 。 虽 然 机 器 学 习 方法 应 用 效果 不 断 优 化 ， HI, Sutskever 等 人 19 利用 隐藏 层 的 循环 递归 来 改进 传统 前 
但 是 过 于 依赖 人 工 提 取 特 征 , 导致 特征 表达 能 力 弱 、 成 本 高 。 向 神经 网 络 ,以 循环 递归 特性 来 挖掘 数据 序列 信息 ; 文献 [11] 


于 图 像 、 自 然 语 言 等 数据 本 身 具 有 连续 性 和 局 部 相关 ”中 提出 的 双向 LSTM 结构 ,通过 获取 更 长 且 双 向 的 序列 信息 ， 
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Bod Y. 


更 好 地 表达 了 上 下 文 信息 ;但 


于 RNN 自身 循环 递归 特性 ， 


网 络 结构 复杂 度 高 ， 


本 数 ] 


处 理 数 据 


比较 耗 时 。CNN 和 RNN 处 理 


居 信 息 时 ， 昌 然 以 自身 结构 特性 提取 不 同 特征 来 描述 
数据 信息 , 但 两 者 存在 不 足 :可 解释 性 弱 。 为 此 , Bahdanau 


等 人 [将 Attention 机 制 引 入 RNN， 并 在 机 器 翻译 任务 研究 


中 取得 不 俗 的 效果 ， 
用 先河 。 


开启 了 Attention 机 第 
Attention 机 制 的 引入 强化 了 RNN 模型 对 序列 信息 


在 NLP 领域 中 应 


AL 


高 效 挖掘 能 力 ， 被 ) 


整个 网 络 结构 来 验 说 


型 等 任务 研究 。 由 于 Attention 
[13] 中 将 Attention 机 


一 中 


泛 应 用 于 语音 识别 、 


文本 分 析 、 会 话 模 
机 制 计算 过 程 是 可 微 的 ,文献 


IHF CNN 网 络 的 卷 积 层 、 池 化 层 和 
E Attention 机 制 的 普 适 性 。Attention 机 制 


的 引入 强化 了 网 络 挖掘 文本 特征 信息 的 能 力 鸣 , 但 在 不 同 任 
究 中 , CNN. RNN 以 自身 
足 ， 中 国 科学 院 研究 人 员 05 
TextRCNN 模型 ， 
值得 借鉴 的 是 模型 结构 设 
CRNN 模型 ， 实 现 了 端 对 端的 特征 学 习 方 式 ， 


55 


势 ， 提 出 了 


结合 CNN 和 RNN 


网 络 结构 展现 了 各 自 优势 与 不 
网 络 结构 优 
虽然 准确 率 只 提升 了 1%， 但 


息 到 序列 信息 的 组 合 过 程 ， 可 
不 断 改进 的 网 络 结构 可 以 更 好 地 描述 数据 特征 信息 ， 


计 新 思路 ; 


文献 [16] 中 提出 的 
局 部 特征 信 
以 更 好 地 描述 数据 特征 信息 。 


Attention 机 制 


可 以 强化 
决 文本 数据 处 理 过 程 中 局 部 信 
性 、 可 解释 性 弱 等 问题 ， 


网 络 学 习 能 力 。 因 此 ， 为 了 更 好 地 
息 的 相关 性 、 序 列 信息 的 连贯 
在 遵从 网 络 结构 设计 通用 性 原则 [7 
下 ,通过 网 络 层次 结合 的 方式 设计 CRNN 网 络 结构 ，# 


、Attention 机 制 的 优势 ， 以 循序 渐进 


Text-CRNN- Attention 架构 下 的 多 类 别 文本 信息 分 类 
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长 短 时 记忆 网 络 (LSTM) 089 和 门 控 递 归 单 元 网 络 CGRUD 
09] 作 为 时 间 递 归 神 经 网 络 的 变种 ， 用 于 解决 前 后 词语 间 的 依 
赖 关 系 ， 保 证 序列 特征 信息 的 提取 ， 两 者 实际 应 用 效果 不 相 
上 下 ,， 相 比 LSTM，GRU 参数 量 大 大 缩减 Po0。 在 文本 分 类 中 
的 应 用 如 图 2 所 示 。 


图 2 LSTM/GRU 处 理 文 本 数据 
Fig.2 LSTM/GRU processing text data 

2 中 ， 由 词 向 量 x1，x2....xL 输入 LSTM/GRU 模型 ， 
经 处 理 后 将 词 向 量 组 合 为 更 高 一 级 的 序列 特征 向 量 ， 最 后 实 
现 分 类 。RNN 在 处 理 数据 的 上 下 文 信息 ， 由 于 无 法 体现 每 一 
时 刻 输出 序列 信息 的 不 同 重要 程度 ， 会 造成 有 效 特征 信息 的 
。 所 以 ， 深 度 学 习 网 络 处 理 文本 数据 时 ， 不 够 直观 、 可 
解释 性 弱 。 
LSTM+Attention 
注意 力 机 制 (Attention mechanism) 源 于 人 类 对 视觉 图 
像 信息 的 研究 ， 主 要 为 了 合理 运用 有 限 资 源 来 表征 整个 事物 
本 身 。Attention 机 制 在 NLP 中 的 应 用 可 以 被 认为 是 一 种 自动 
加 权 的 方式 , 它 可 以 根据 每 一 时 刻 输出 信息 的 不 同 重要 程度 ， 
通过 加 权 的 形式 对 不 同 输出 进行 联系 ， 有 效 提升 网 络 对 序 多 


到 序列 信息 的 有 效 


Attention 机 制 ,本文 提出 了 一 种 Text-CRNN+Attention 模型 。 
模型 汲取 了 CNN. RNN 

的 方式 ， 由 局 部 特征 提取 到 全 局 特征 ， 

pu 


同时 体现 了 每 一 时 刻 输出 序列 信息 的 不 同 权重 ， 起 到 


增强 网 络 学 习 能 力 的 效果 ， 实 现 文 本 数据 信息 主题 化 。 


1 ”相关 工作 


深度 学 习 网 络 在 处 理 文本 数据 时 ， 数 据 输入 大 小 和 输出 


都 是 先前 固定 的 ， 由 于 文本 数据 与 图 像 数 据 不 同 ， 文 本 语句 


长 短 不 一 ， 需 要 进行 定 长 处 理 
Text-CNN 模型 


1.1 


Text-CNN 模型 


， 设 定 序 列 长 度 。 


Ph 提出， 网 络 结构 为 “ 单 层 卷 积 


文献 [3]9 


+ 池 化 ”的 简易 CNN 


模型 ， 如 


图 1 所 示 。 数 据 


词 映 射 处 理 


后 做 卷 积 操作 得 到 特征 向 量 (feature vector) ， 再 
作 得 到 文本 特征 表示 向量 。 


做 池 化 操 


图 1 Text-CNN 模型 


Fig.l Text-CNN model 


图 1 中， 卷 积 层 设计 为 多 重 过 滤器 宽度 〈 同 卷 积 核 大 小 


设 定 ) 的 特征 映射 ， 池 化 层 采用 最 大 值 池 化 策略 ， 既 可 便于 
空气 关键 局 部 信息 ， 又 可 以 固定 模型 输出 维度 。CNN 虽然 易 
于 抽取 局 部 关键 特征 ， 但 存在 最 大 问题 在 于 卷 积 核 大 小 的 固 
定 ， 主 要 影响 ， 一 是 无 法 获取 长 序列 信息 ;二 是 卷 积 核 繁 珊 
的 超 参 调节 。 
1.2 LSTM 和 GRU 

相 比 Text-CNN, RNN 可 以 连贯 性 表达 数据 上 下 文 信息 


特征 信息 的 学 习 效 率 。 引 入 LSTMPC0H 中 应 用 如 图 3 所 示 。 


Attention 


SS 一 = ^a 


图 3 LSTM-Attention 模型 
Fig.3 LSTM-Attention model 
3 中 ， 定 义 文本 数据 进行 分 词 后 的 各 个 词 向 量 为 
Xo0,X1,X2,... XL， 然 后 依次 输入 LSTM， 对 应 输出 定义 为 hi， 
下 标 i 表示 每 一 时 刻 输 出 状态 ，ie[0,L]; 同时 在 隐藏 层 引 入 
Attention 机 制 ， 计 算 每 一 时 刻 输 出 与 整个 特征 向 量 的 匹配 得 
分 占 总 体 的 百分率 (注意 力 概率 分 布 〉ai: 
H exp(score(h,h,)) 
Dexp(score(h,h,)) 


(1) 


有 可 以 被 看 做 是 比 词 向 量 更 高 一 级 的 文本 表 
示 向 量 ， 其 值 可 以 随机 初始 化 ， 并 在 模型 训练 过 程 中 逐步 更 
新 ， 则 第 i 时 刻 输 出 hi 占有 的 比重 值 score(h,h,) 为 


H.FH: je[0,L]; 


score(h,h,) = w^ Re LU (Wh + Uh ,+b) 2) 
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录用 定稿 E t, 等 : 
rp: W, U 为 权 值 矩阵 ，b 为 偏 置 值 ，ReLU 为 激活 函数 ， 


Text-CRNN- Attention 架构 下 的 多 类 别 文本 信息 分 类 


于 图 像 序列 预测 、 文 本 识别 等 任务 研究 ， 然 而 在 文本 分 类 和 
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该 值 越 大 说 明了 该 时 刻 输入 的 文本 信息 注意 力 越 大 。 得 到 每 
一 时 刻 的 概率 分 布 值 后 ， 对 所 有 时 刻 输 出 进行 求 和 再 平均 ， 
得 到 特征 向 量 V， 计 算 公 式 如 下 : 


V =Z ah (3) 


Attention 机 制 的 引入 ， 使 模型 在 处 理 上 下 文 信息 时 ， 能 
够 体现 出 每 一 时 刻 输出 序列 信息 的 不 同 权 重 ， 可 以 强化 序列 
言 息 的 有 效 组 合 。 
1.4 RCNN 和 CRNN 模型 

RCNNU53 和 CRNNU9 是 根据 CNN\RNN 网 络 结构 特性 ， 
通过 网 络 层 次 结合 方式 进行 有 效 组 合 的 网 络 结构 ， 模 型 保持 


了 CNN 处 理 局 部 信息 的 位 置 不 变性 和 RNN 易于 序列 信息 建 
模 的 能 力 。 
RCNN 模型 用 于 解决 CNN 处 理 文本 数据 时 ， 由 于 卷 积 


核 的 固定 ， 每 一 个 词 向 量 的 上 下 文 信息 受 限 的 问题 。 该 模型 
保证 了 每 个 词 向 量 的 上 下 文 信息 ， 从 而 在 提取 局 部 信息 时 ， 
期 望 每 个 词 向 量 可 以 精确 地 表达 其 特征 价值 。CRNN 常 被 用 


S uà N - JN 


究 中 ， 该 模型 通过 有 


效 提取 局 部 特征 ， 再 对 局 部 特征 进行 序 


列 组 合 ， 减 少 了 
复杂 ,数据 处 理 


特征 信息 的 丢失 。 然 而 RNN 模型 本 身 结构 
过 程 计算 成 本 比较 大 , CNN 可 以 更 好 地 体现 


数据 信息 的 局 部 相关 性 , 所 以 CRNN 在 实时 性 和 准确 率 性 能 
上 要 优 于 RCNN， 训 练 过 程 速度 较 快 ， 生 成 模型 也 较 小 。 现 


阶段 众多 任务 学 习 中 ， 


来 取代 


网 络 结构 结合 模型 常常 被 


CNN、RNN， 进 行 模型 的 优化 。 
2  Text-CRNN-Attention 
2.1 网 络 结构 设计 


针对 深度 学 习 网 络 在 文本 分 类 研究 中 展现 的 网 络 结构 优 
势 和 不 足 ， 在 遵循 网 络 结构 设计 通用 性 原则 下 ， 设 计 了 先 卷 
积 池 化 后 循环 递归 的 CRNN 结构 ， 同 时 引入 Attention 机 制 
来 解决 模型 可 解释 性 弱 问题 。 
部 特征 提取 到 全 局 特征 ， 


以 循序 渐进 的 方式 ， 实 现 由 局 
对 到 序列 信息 的 有 效 挖掘 的 过 程 。 


网 络 结构 设计 如 图 4 所 示 。 


Word mapping Convolution layer 


Max-pooling layer 


图 4 Text-CRNN- Attention 模型 


Fig.4 Text-CRNN- Attention model 


图 4 网 络 结构 设计 中 词 映 射 采 用 了 One-Hot 
Representation 方式 ; CNN 设计 借鉴 了 文献 [8] 中 的 Text-CNN 
网 络 结构 ， 采 用 卷 积 层 + 最 大 值 池 化 层 结构 ;RNN 模型 设计 
采用 LSTM 结构 中 引入 了 Attention 机 制 ,在 监督 学 习 模式 下 ， 
依据 图 4 网 络 结构 设计 构建 深度 学 习 模 型 ， 则 模型 处 理 文本 
数据 的 步骤 如 下 ; 


b) 利用 CNN 处 理 局 部 特征 的 位 置 不 变性 ， 提 取 高 效 局 
部 特征 信息 ， 得 到 特征 向 量 Cfeature vector) 作为 RNN 网 络 
输入 ; 
c) 将 Attention 机 制 引入 RNN 网 络 , 根据 每 一 时 刻 输 出 
不 同 重要 程度 进行 自动 加 权 ， 强 化 序列 特征 建 模 ; 
d) Softmax 分 类 器 来 输出 网 络 预测 每 一 类 别 的 概率 。 
2.2 文本 数据 处 理 过 程 
通过 深度 学 习 框架 构建 序 贯 模型 (sequential) ， 在 模 
型 进行 训练 和 执行 预测 时 , Text-CRNN+Attention 模型 在 处 理 
文本 数据 的 具体 实现 过 程 为 : 
a) 词 映 射 。 
将 文本 数据 进行 词 映射 (将 词语 向 量化 并 降 维 处 理 ) 处 
里, 假定 文本 语句 中 有 N 个 词 , 分 布 式 表示 为 N 维 向 量 ZN: 


"M 


a) 将 文本 数据 通过 词 映射 转换 为 词 向 量 , 作为 网 络 输入 ; 


>| Attention | 
Y 
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: sequence 
Y 
RNN- Attention 
Z „= [0,0,1,0,- - .,0.- --0] (4) 


定义 维度 为 m、 第 i 词语 对 应 词 向 量 为 aeRm， 则 长 度 


为 j 的 语句 中 [i,j] 词 语 的 # 


a 


b) 词 向 量 经 CNN 网 络 提取 高 效 局 部 特征 。 
完成 词 映射 


i 


积 层 中 卷 积 核对 
LH beRm; 对 比 实验 中 所 用 为 ReLU 激活 函数 


heRnm; Sfi 


接 序列 词 向 量 为 
Da,,, PD:… Oa, (5) 


j =a; Pa, Da,,, 


后 ， 将 词 向 量 输入 CNN 模型 进行 处 理 ， 卷 
应 词 个 数 记 为 n; 卷 积 核对 应 的 权 值 矩 阵 为 


假定 为 f， 则 卷 积 核 在 词 序列 中 第 i 位 置 上 的 输出 为 


池 化 层 采 用 


T, = f (A: HE +b) (6) 
了 最 大 值 池 化 (max-pooling) : 
T = max(T,) (7) 


文本 特征 向 量 池 化 操作 与 图 像 数据 池 化 不 同 ， 处 理 过 程 


是 将 卷 积 后 的 输出 向 量 经 池 化 后 直接 得 到 一 个 数值 ， 得 到 全 


局 特征 向 量 Feature vector: 


T= [7 .T J.T ,, ur T - (8) 
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c) 将 Attention 机 制 引入 RNN 网 络 ,强化 序列 特征 建 模 。 
经 过 CNN 模 型 得 到 Feature vector, 以 CNN 输出 为 LSTM 
输入 ， 定 义 Feature vector 输入 LSTM 后 挖掘 的 特征 序列 为 


Tm， 每 一 时 刻 输入 特征 向 量 为 于，，( 对 应 为 TT，，) 。 


m-1 j-n4 
LSTM 网 络 处 理 文本 信息 时 ， 通 过 四 个 彼此 交互 的 “ 门 ” 

单元 来 控制 每 一 输入 对 特征 序列 的 影响 变化 。 令 1 为 遗忘 门 

(forget gate layer) ,ff 为 激活 函数 ， 将 特征 序列 Tmi 与 当前 
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3 ”实验 结果 及 分 析 


3.1 数据 集 

在 监督 学 习 模式 下 ， 对 比 实验 数据 集 采 用 清华 大 学 自然 
语言 处 理 实验 室 推 出 的 THUCT 中 文 文本 数据 库 中 的 部 分 子 
数据 集 。 该 数据 集 文本 数量 大 、 类 别 多 ; 包含 财经 、 房 产 、 
体育 、 教 育 、 时 尚 、 和 科技、 娱乐 、 游 戏 、 时 政 、 家 居 共 计 10 
类 。 数 据 集 被 划分 为 训练 、 验 证 、 测 试 集 。 数 据 集 划 分 基本 


输入 特征 向 量 的 线性 组 合 为 
/= JOY XT, HU; xT „+b,) (9) 


其 中 : W, U 为 连接 上 层 隐 层 与 当前 隐 层 的 权重 和 矩阵; b 为 
偏 置 参 数 ; 同 理 , 输入 门 (input gate layer)it 候选 门 C(candidate 


layer) ct、 输 出 门 (output gate layer) ot 运行 策略 分 别 表 示 为 
i, = fW, xT ,, KU] xT,+b,) (10) 


c, = f(WI xT „UT xT +b.) (11) 


m-l 


0,— fw; xT, UL xa „+b,) (12) 
线性 组 合 后 的 记忆 特征 ec 由 遗忘 门 过 滤 后 的 部 分 记忆 和 


ci ABI. 
del 数据 集 划 分 信息 


Table 1 Data set partitioning information 
类 型 ES 训练 集 验证 集 测试 集 
数量 10 5000x10 500x10 1000x10 


3.2 ”实验 环境 及 参数 设 定 

为 了 合理 有 效 验证 模型 的 性 能 指标 , 对比 实验 环境 设置 : 
操作 系统 为 Ubuntul604, ， 内 存 3.7GB ， 处 理 器 为 
Intel*Core'Mi5-7200U CPU(22.50 GHzx4, 在 Tensorflow 框架 
下 使 用 Python 语言 。 
模型 训练 、 执 行 预测 时 , 文本 序列 长 度 统一 设置 为 600; 
学 习 率 的 设置 直接 影响 着 网 络 模型 的 优化 效果 ， 其 设置 不 能 


lxeii 和 新 增加 的 特征 信息 itxct《〈 新 增 比例 由 输入 门 控制 ) 
构成 : 


c,-l,xc, Fi x fW? xT ,, UT xT +D ) (3) 
则 每 一 时 刻 输 出 门 输出 并 传递 给 下 一 阶段 的 特征 序列 信息 为 


T 55 fü) 


(14) 
—o, Xf (l,xc, ,*i,xc,) 
则 输出 的 序列 特征 信息 组 合 为 
Z= 人 人] (15) 


在 LSTM 模型 中 引入 Attention 机 制 ， 对 应 于 式 (1) 。 
ai 计算 公式 为 


exp(score(T ‚T )) 
i > exp(T7) (16) 


其 中 ;je[0,L]; T 可 以 被 看 做 是 比 输入 特征 向 量 更 高 一 级 的 


文本 表示 向 量 , 其 值 也 是 随机 初始 化 ; 所 以 score(T,T ) 为 


score(T ‚T ) =w" Re LU (WT + UT +b) (17) 

得 到 每 一 时 刻 的 概率 分 布 值 后 ， 对 每 一 时 刻 输出 进行 求 
再 平均 后 ， 得 到 特征 向 量 V: 
L 

V-Yaf, (18) 
i=0 


d) 由 Softmax 分 类 器 来 预测 输出 。 
经 过 网 络 处 理 得 到 特征 向 量 后 ， 
文本 数据 分 类 概率 : 


y = Softmax(W WV +by) (19) 
该 输出 为 网 络 预测 的 每 一 类 别 概率 ， 选 择 具 有 最 高 概率 


条 


I 


Softmax 分 类 器 预测 


过 大 也 不 能 过 小 ， 对 比 实验 采用 了 学 习 率 的 指数 衰减 ， 卷 积 
层 和 池 化 层 相 关 参 数 借鉴 文献 [8]， 并 不 断 调 优 后 ， 设 定 卷 积 
ZRI (长度) 为 4; 其 宽度 和 词 向 量 一 致 为 64; 卷 积 核 数 
目 设置 为 256; 最 大 的 池 化 层 设 置 为 4; LSTM 层 、GRU 层 
神经 元 个 数 设 置 为 128; 训练 批 次 周期 为 20， 每 迭代 100 轮 
输出 一 次 结果 。 
3.8 ”模型 对 比 实验 分 析 

为 了 保证 测试 数据 评估 效果 与 在 真实 场景 下 模型 对 未 知 
数据 预 判 的 结果 相近 ， 模 型 训练 时 ， 数 据 集 划分 了 训练 集 、 
验证 集 。 图 5 和 6 分 别 为 七 种 模型 训练 集 、 验 证 集 准 确 率 
(accuracy) 随和 迭代 次 数 CGter) 变化 曲线 。 最 后 对 模型 进行 
测 实 验证 ， 模 型 训练 及 测试 时 间 、 测 试 准确 率 如 表 2 所 示 。 
表 3 为 每 一 类 别 在 Text-CRNN- Attention 模型 及 六 种 对 比 模 
型 中 的 测试 识别 率 对 比 结果 。 
在 图 5、6 中 可 以 直观 地 看 出 , 训练 准确 率 变化 曲线 和 验 
证 准确 率 变化 曲线 在 迭代 200 轮 时 ， 相 比 其 他 六 种 模型 ， 
Text-CRNN-Attention 模型 收敛 速度 较 快 ,达到 一 个 相对 较 高 
的 准确 率 ， 并 在 200 轮 之 后 曲线 逐步 趋 于 平滑 状 ，LSTM 和 
GRU 模型 相对 波动 幅度 最 大 , 相 比 Text-CNN、RCNN、CRNN 
模型 ，Text-CNN+RNN 模型 平滑 程度 较为 明显 ， 训 练 准确 率 
和 预测 准确 率 基 本 持平 。 由 此 表明 ，Text-RNN+Attention 模 
型 网 络 学 习 能 力 和 模型 泛 化 能 力 明 显 优 于 其 他 六 种 模型 。 


Text-CNN 

LSTM 

GRU 

LSTM+Attention 
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CRNN 
Text-CRNN+Attention 
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图 5 ”训练 集 准确 率 变化 曲线 


Fig.5 Accuracy change curve of training set 
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ws m 验证 了 在 数据 具有 空间 和 时 间 上 的 连续 性 时 ， 由 于 Attention 
中 机 制 计算 过 程 是 可 微 的 ， 所 以 可 适用 于 不 同 网 络 结构 中 ， 可 
sr 以 不 断 扩展 应 用 领域 ， 虽 然 该 模型 分 类 效果 有 一 定 的 提升 ， 
7l 但 CRNN 网 络 结构 设计 本 身 具 有 一 定 的 复杂 性 ， 同 时 
€ olf Attention 机 制 的 引入 需要 耗费 一 定 的 计算 量 ， 所 以 在 实时 性 
HE Kei | 上 没有 取得 很 好 地 效果 。 所 以 接 下 来 有 待 于 深入 研究 的 问题 
Hi e—e GRU ] ÆT: a) 针对 Attention 机 制 计 算 量 随 输入 输出 序列 增加 呈 
PSI NUR 指数 级 增长 问题 进行 优化 模型 ， 改 善 实时 性 , b) 如 何 选择 性 
15 ** CRNN ] 地 关注 关键 输出 序列 信息 ， 而 不 是 每 一 时 刻 都 进行 。 
x ——  Text-CRNN--Attention |] : 
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